【论文阅读】Multi-Scale Structure-Aware Network for Human Pose Estimation

动机

基于DNN的姿态估计方法仍具有的问题
  1. 尺度不稳定性:大部分方法在某一个尺度上过拟合,使得某一个尺度的结果占据主导的地位,引起了尺度的不稳定,通常的方法是不断的前传各个尺度的图片进行测试,选取分数最高的结果。
  2. 缺乏结构先验。

方法

network

Multi-Scale Supervision Network

设计MSS-net来学习多尺度的深度特征,在MSS-net的每个反卷积层上执行多个分层监督,每个层对应于一定的尺度。
1x1卷积用来匹配特征图的维度,ground-truch关键点特征图下采样,匹配相关的关键点热图。
MSS-net定位关键点和 attention model很相似。

Multi-Scale Regression Network

MSR-net接在MSS-net后,用来全局优化多尺度关键点热图,提高估计的结构一致性。MSR-net将多比例尺的热图作为输入,并将它们与各自比例尺上的ground-truch关键点进行匹配。通过这种方式,回归网络可以有效地结合所有尺度的热图来细化估计的姿态。

Structure-Aware Loss

loss
在网络中,有两个地方使用了结构感知损失:(1)在MSS-net堆栈之间,作为一种中间监督手段,在定位关键点时加强结构一致性;(2)在MSR-net中查找全局一致的位姿配置。

Keypoint Masking Training

数据中遮挡的情况较少,提出了一种数据增强方法,人工创建遮挡和添加多余图像。
masking

坚持原创技术分享,您的支持将鼓励我继续创作!
0%